Représentations et régularisations pour la classification de sentiments
نویسندگان
چکیده
As web 2.0 is spreading, users get used to give their opinion on forums, blogs and e-commerce websites. This is a valuable piece of information for many applications such as consumer modeling, sales prediction or opinion survey. According to the literature, the efficiency of opinion mining tools will mainly relies on the ability of discriminating texts that express positive sentiments from texts that express negative ones. Previous experiments show that this task is difficult. We compare various classical descriptors and point out the interest of large representations of texts (N-grams, sub-sequences) for this task. The dimensionality of the data causes problems during the learning step: we demonstrate the inefficiency of the classical regularization framework as well as the interest of penalizing frequent terms. We demonstrate the efficiency of our approach on classical Movie Reviews and Amazon data-sets. MOTS-CLÉS : Classification de sentiments, régularisation, pénalisation des termes fréquents
منابع مشابه
Construction de descripteurs à partir du coclustering pour la classification supervisée de séries temporelles
Résumé. Nous présentons un processus de construction de descripteurs pour la classification supervisée de séries temporelles. Ce processus est libre de tout paramétrage utilisateur et se décompose en trois étapes : (i) à partir des données originales, nous générons de multiples nouvelles représentations simples ; (ii) sur chacune de ces représentations, nous appliquons un algorithme de cocluste...
متن کاملStabilité en niveau 0, pour les groupes orthogonaux impairs p-adiques
Précisons tout de suite que dans ce qui suit, F est un corps extension finie de Qp avec p 6= 2 et même pour le théorème principal p grand. Le but de ce travail est de produire des fonctions sur les groupes p-adiques orthogonaux impairs dont les intégrales orbitales sur les éléments elliptiques réguliers ne dépendent que des classes de conjugaison stable. Au passage, on produit aussi des fonctio...
متن کاملFeature Selection in Sentiment Analysis
In this article, we propose a new method for feature selection and sentiment classification. To identify the most salient features belonging to the specific categories, we use the Z score measure. Based on this score, we can identify confident features and use the Information Gain (IG) measure to obtain scores for terms appearing in the neighborhood of the confident features. Based on this info...
متن کاملDocument Level Subjectivity Classification Experiments in DEFT’09 Challenge
Cet article présente nos expériences de classification supervisée pour la subjectivité au niveau des documents, pour l’anglais et pour le français, au cours du Défi DEFT’09 de fouille de textes. Nous avons testé des traits portant sur les mots, les parties du discours et sur des vocabulaires spécialisés pour faire fonctionner un classificateur SVM. Nos expériences sur les traits des mots examin...
متن کاملUn système de vote pour la classification de textes d'opinion
La classification de textes a pour objectif le regroupement de documents selon différents critères. Dans les travaux présentés dans cet article, nous nous intéressons à la classification de textes d'opinion qui consiste à classer les textes selon un jugement tel que l'aspect positif ou négatif d'une critique, l'aspect favorable ou défavorable donné par un expert, etc. Nous proposons dans cet ar...
متن کامل